跳到主要内容

多元线性回归_Multiple Linear Regression

什么是多元线性回归(MLR)?

多元线性回归(MLR),简称为多元回归,是一种统计技术,利用多个解释变量来预测响应变量的结果。MLR的目标是建立解释变量(自变量)与响应变量(因变量)之间的线性关系。实际上,多元回归是普通最小二乘(OLS)回归的扩展,因为它涉及多个解释变量。

主要观点

  • 多元线性回归(MLR)是一种统计技术,利用多个解释变量来预测响应变量的结果。
  • 它也被称为多元回归。
  • 多元回归是线性(OLS)回归的扩展,后者仅使用一个解释变量。
  • MLR在计量经济学和金融推断中得到广泛应用。
  • 多元回归用于进行预测、解释金融变量之间的关系,并检验现有理论。

多元线性回归(MLR)的公式与计算

yi=β0+β1xi1+β2xi2+...+βpxip+ϵ其中,i = n  个观察值:yi=因变量xi=解释变量β0=y截距(常数项)βp=每个解释变量的斜率系数ϵ=模型的误差项(也称为残差)\begin{aligned}&y_i = \beta_0 + \beta _1 x_{i1} + \beta _2 x_{i2} + ... + \beta _p x_{ip} + \epsilon\\&\textbf{其中,i = n \textbf{ 个观察值:}}\\&y_i=\text{因变量}\\&x_i=\text{解释变量}\\&\beta_0=\text{y截距(常数项)}\\&\beta_p=\text{每个解释变量的斜率系数}\\&\epsilon=\text{模型的误差项(也称为残差)}\end{aligned}

多元线性回归(MLR)能告诉你什么

简单线性回归是一种函数,允许分析师或统计学家基于已知关于某一变量的信息来对另一变量进行预测。线性回归仅能在拥有两个连续变量——一个自变量和一个因变量时使用。自变量是用于计算因变量或结果的参数。多元回归模型扩展到多个解释变量。

MLR模型基于以下假设:

  • 因变量与自变量之间存在线性关系
  • 自变量之间的相关性不应过强
  • 选择的观察值是从总体中独立和随机抽取的
  • 残差应呈正态分布,均值为0,方差为σ²

重要提示: MLR假设因变量与自变量之间存在线性关系,自变量之间没有强相关性,且残差的方差是恒定的。

决定系数(R平方)是一种统计指标,用于衡量结果的变异有多少可以通过自变量的变异来解释。即使预测变量与结果变量并无关系,R²在向MLR模型添加更多预测因子时也会增加。

因此,R²本身不能用来识别模型中应包含哪些预测因子和排除哪些预测因子。R²的取值范围在0到1之间,0表示结果无法通过任何自变量进行预测,1表示结果可以毫无误差地由自变量预测。

在解释多元回归结果时,贝塔系数在保持其他所有变量不变的情况下有效(“其他条件不变”)。来自多元回归的输出可以以方程的方式呈现,也可以以表格的方式纵向展示。

多元线性回归(MLR)使用示例

例如,一位分析师可能想知道市场变化如何影响埃克森美孚(XOM)的股票价格。在这种情况下,线性方程会以标普500指数的值作为自变量或预测因子,而以XOM的价格作为因变量。

实际上,多种因素都可以预测事件的结果。例如,埃克森美孚的股票价格变化不仅仅取决于整体市场的表现。油价、利率以及原油期货价格等其他预测因子也会影响埃克森美孚(XOM)的价格及其他油企的股票价格。为了理解涉及两个以上变量的关系,使用MLR。

MLR用于确定多个随机变量之间的数学关系。换句话说,MLR考察多个自变量与一个因变量之间的关系。一旦确定每个自变量对因变量的预测能力,就可以利用这多个变量的信息准确预测对结果变量的影响程度。该模型在形式上创建一个最佳拟合的线性关系,尽量接近所有的个别数据点。

参考上面的MLR方程,在我们的例子中:

  • yi = 因变量——XOM的价格
  • xi1 = 利率
  • xi2 = 油价
  • xi3 = 标普500指数的值
  • xi4 = 原油期货价格
  • B0 = 时间为零时的y截距
  • B1 = 测量当xi1变化时因变量的单位变化的回归系数——利率变化对XOM价格的影响
  • B2 = 测量当xi2变化时因变量的单位变化的系数——油价变化对XOM价格的影响

最小二乘估计值——B0、B1、B2…Bp通常由统计软件计算。而且可以在回归模型中包含多个变量,其中每个自变量用编号区分——1、2、3、4…p。

提示: 多元回归也可以是非线性的,此时因变量和自变量则不会遵循直线关系。

多元回归模型使分析师能够基于多个解释变量的信息预测一个结果。然而,由于每个数据点可能与模型预测的结果略有不同,该模型并不总是完全准确。残差值E,即实际结果与预测结果之间的差异,被纳入模型以解释这种微小的变动。

我们在统计计算软件中运行了XOM价格回归模型。它返回了以下输出:

分析师会根据这一输出得出这样的结论:如果其他变量保持不变,当市场油价上涨1%时,XOM的价格将上涨7.8%。模型还表明,利率每上涨1%,XOM的价格将下降1.5%。R²显示,埃克森美孚的股票价格变化86.5%可通过利率、油价、油期货和标普500指数的变化来解释。

线性回归和多元回归的区别

普通最小二乘(OLS)回归比较因变量在某些解释变量变化时的响应。然而,因变量很少只通过一个变量来解释。在这种情况下,分析师使用多元回归,试图通过多个自变量来解释因变量。

多元回归可以是线性或非线性的。MLR基于因变量与自变量之间存在线性关系的假设。它还假设自变量之间没有主要相关性。

什么使得多元回归成为多元?

多元回归考虑多个解释变量对某一感兴趣结果的影响。它评估这些解释变量(自变量)对因变量的相对效应,同时保持模型中其他所有变量不变。

为什么要选择多元回归而不是简单的OLS回归?

因变量很少只通过一个变量来解释。在这种情况下,分析师使用多元回归,试图通过多个自变量来解释因变量。该模型假设自变量之间没有主要相关性。

我可以手动进行多元回归吗?

这不太可能,因为多元回归模型较为复杂,当模型中包含的变量增多或需分析的数据量增大时,复杂性更甚。要运行多元回归,你可能需要使用专门的统计软件或Excel等程序中的函数。

多元回归的线性含义是什么?

在多元线性回归中,模型计算出最佳拟合线,尽量减少与因变量相关的每个变量的方差。由于它拟合一条直线,因此是线性模型。还有涉及多个变量的非线性回归模型,如逻辑回归、二次回归和概率单位模型。

多元回归模型在金融中如何应用?

任何涉及多个变量的计量经济模型都可能属于多元回归。因子模型比较两个或多个因子,以分析变量之间的关系及其导致的表现。法马-法rench三因子模型即是这样一种模型,它在资本资产定价模型(CAPM)的基础上,增加了规模风险和价值风险因子,从而扩展了市场风险因子。通过纳入这两个附加因子,该模型针对超额收益进行调整,使其成为评估管理者表现的更好工具。

结论

MLR是一种统计工具,用于预测变量的结果,基于两个或多个解释变量。如果只有一个变量影响因变量,简单线性回归模型就足够了;反之,如果有多个因素影响该变量,则需要使用MLR。

经典的例子是影响公司在股市上估值的驱动因素。通常,一家公司的股价受多种因素影响。在这种情况下,因变量将是股价,这是我们试图预测的目标,而自变量,即解释变量,将是影响股价的因素。

参考文献

[1] Yale University. "Multiple Linear Regression."

[2] CFA Institute. "Basics of Multiple Regression and Underlying Assumptions."

[3] Boston University Medical Campus-School of Public Health. "Multiple Linear Regression."